Home

Home

7.6 Meta-Evaluation: 오라클 자체의 신뢰성 검증

Home / 소프트웨어 공학 (Software Engineering) / 제목: 오라클: AI 주도 개발을 위한 해답 / Chapter 7. LLM-as-a-Judge: 평가용 AI 모델을 활용한 하이브리드 오라클 시스템 / 7.6 Meta-Evaluation: 오라클 자체의 신뢰성 검증

7.6 Meta-Evaluation: 오라클 자체의 신뢰성 검증

7.6.1 인간 평가자(Human Evaluator)와 AI 평가 간의 상관계수(Correlation) 측정
7.6.2 Cohen’s Kappa 및 Krippendorff’s Alpha를 이용한 평가 일치도 분석
7.6.3 평가용 골든 데이터셋(Evaluation Golden Dataset) 구축 및 벤치마킹
7.6.4 오라클의 오탐(False Positive)과 미탐(False Negative) 모니터링
7.6.5 지속적인 피드백 루프를 통한 평가 프롬프트 개선 프로세스

Generated by Rust Site Gen